from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # wholeTextFiles(param1, param2)
    # 适合读取一堆小文件
    # param1，必填，文件路径，支持本地文件、HDFS、S3协议等
    # param2，可选，表示最小分区数
    # 注：param2 话语权不足，Spark有自己的判断，在它允许的范围内，参数2有效果，超出Spark允许的范围，参数2失效

    # 通过textFile读取文件路径
    rdd = sc.wholeTextFiles("../data/input/tiny_files")
    # print(rdd.collect())

    print(rdd.map(lambda x: x[1]).collect())
